纯RL破局!DeepSeek-R1 登上《Nature》 性能逼近GPT-4o 在人工智能领域,大语言模型(LLMs)的推理能力始终是衡量技术突破的核心指标之一。传统方法多依赖人类标注的推理轨迹或特定提示策略,虽然能够在任务当中取得一定的成绩,但却受限于标注成本与人类思维边界。 推理 nature rl token rl破局 2025-09-24 09:21 2